查看原文
其他

统计计量 | Angrist等:更好研究设计如何规避计量经济学弊端?实证经济学的可信度变革

数据Seminar 2022-12-31

The following article is from Politicall理论志 Author 木 海



本文转载自公众号Political理论志

编者按

本文作者約書亞·安格里斯特是2021年诺贝尔经济学奖获得者,本文发表于Journal of Economic Perspectives并对实证经济学自1980年代起发展的回顾。本文侧重介绍研究设计对于增加经济学实证研究可靠性的改善,学者通过反思计量经济学研究中常见的通过不严谨的定量分析得出不可靠的结论的陷阱,总结经济学的主要领域中的发展和局限性,是经济学方法论综述的经典篇目。

学人简介

Joshua D. Angrist (約書亞·安格里斯特), MIT Ford Professor of Economics

Jörn-Steffen Pischke, LSE Professor of Economics

文献来源

Angrist, Joshua D., and Jörn-Steffen Pischke. 2010. "The Credibility Revolution in Empirical Economics: How Better Research Design Is Taking the Con out of Econometrics." Journal of Economic Perspectives, 24 (2): 3-30.

作者 Joshua D. Angrist
著名经济学家Edward Leamer 在1983年曾对经济学的实证工作提出批判,认为计量经济学的种种以看似可靠的实证过程得出结论的“骗术”应被尽快抛弃。本文意在回顾过往二十几年的实证工作,看实证研究的可靠度是否自Leamer悲观的断语面世后有所改善。
Leamer的批评源自于研究中种种预设缺乏稳健性——而这些预设本身虽然对研究结果极为重要,却近乎随意挑选。因此Leamer认为应进行敏感度分析,以判断是否方程模型以及变量选择改变影响研究结果。后来的历史说明,研究设计的改善使得实证研究虽非按照Leamer提出的方案改革,却也经历长足发展。
实证研究中利用随机实验的研究最先得益于研究设计的改进,如在墨西哥进行的改善儿童福利的随机研究,美国住房和城市发展部主导的帮助搬迁项目,都因可信的研究成果而改善了现实政策或改变既往的错误认知。结构性的经济学参数,比如跨时期替代弹性,也是随机实验的研究重点。在研究人员无法进行随机实验的课题上,类实验或者自然实验就成为研究者获取信息的有效渠道。相比之下,实证宏观经济学或许进步有限。但是一部分研究设计为基础的实证作品依旧促进学界达成对重要问题的共识。

Leamer的批判与改良策略

Leamer的批判主要针对传统的朴素的回归分析,而非针对研究设计。Leamer为避免回归分析中的假设影响研究结果,提出敏感性分析。Sims也同样支持这一观点,并将贝叶斯分析应用于这种检验中;最终二人提出极限边界分析,即将多种协变量组合加入模型中估计目标参数,最终确定目标参数的范围。
本文作者通过下述两个案例说明Leamer的贡献和局限:第一个颇有影响力的研究为Ehrlich于1977年发表的用时间序列和截面数据做的法律研究,Ehrlich使用Leamer等人的方法得出结论,认为死刑确对犯罪行为具有震慑作用。该研究在法院对于死刑的判罚产生实质影响。然而该文一经面市便引起巨大争议——研究者发现,Ehrlich的研究结果会因方程形式变化而异,而作为Ehrlich研究的因变量,即1960年代的凶杀案频发,可能收到多种因素影响,而非仅依犯人处决率变动。另外,尽管Ehrlich本人试图通过工具变量应对反向因果、遗漏变量等问题,他却从未论证该工具变量为何有效,乃至为何工具变量与其他内生变量相关。
第二个研究探索教育投入与产出的关系。Coleman等人1966年发表的文章可以说明当时研究的典型问题。学生、学校、社区不同级别的特点本身并未得到区分,例如常见的结论有小课堂可能导致学生标准化考试成绩下降,然而事实是,学习吃力的学生可能会被划分到小课堂等等。另一方面,许多研究也忽视了作为因变量的课堂规模等因素实际与平均投入高度相关,因此把平均投入作为控制变量本身就存在问题。其他著名的研究,如兰德公司1974年的健康保险实验研究也存在相似问题。

计量经济学中的“骗术”为何变少

质量更佳的数据和稳健的估计方式对实证研究的改善自不必说,明晰的研究设计更对研究的可靠性至关重要。从Ehrlich 区区35个样本的研究至今,微观研究的数据量大幅增长。研究者的关注点从过分纠结技术细节,忽略估计量的因果阐释,到如今摆脱对回归分析的教条理解,而侧重理解包括TSLS在内的回归分析对于平均作用的阐释,使得实证经济学在模型本身稳健型增强的同时,也有更多的实质意义。
最重要的莫过于实证研究的重点逐渐转向以研究设计为基础的研究,研究者对于研究设计倾注的心血对于真正的随机实验研究和非实验研究接近一致。回到教育资源投入产出的著名研究案例,到1992年,Krueger等人的研究转而从每一代人的出生群为单位,使得变化的源头与最终估计量的层级统一,如此规避部分遗漏变量带来的影响。后来,Lavy等人1999年的文章上以RD研究课堂规模对于标化成绩的影响,由此规避课堂规模的内生性问题。最后一种类实验的研究设计为DID,也是如今应用最为广泛的研究设计为基础的估计方法。DID研究评估政策变化导致的变动的差异。例如图一便是著名的关于死刑废除与杀人案发生率的因果关系的研究,美加两国相似的变动趋势说明了这一因果关系。此外随机实验也在研究中得到大力推广,其中最有名的就是田纳西州以10000名幼儿园至三年级学生为样本的研究,这些研究者将孩子们随机分配进不同规模的课堂并追踪其成绩变化。当然了,这些研究都有其自身局限性。但是相比于原本徒劳地寻求“真正”的模型,研究者如今的重点放在了遗漏变量可能的来源等更值得探究的问题。
此外,研究设计也逐渐成为被公布、广泛讨论的内容。如今研究设计已经不再是一个形式主义的产物,而是需要详细陈述并反复答辩的实施方案,确定识别策略已经成为研究中必不可少的一环。好的研究设计也使得实证结果更加直白,更易于呈现。而敏感性测试则似有式微:相比于Leamer茫无目的地测试不同模型的敏感度,有研究设计蓝本的研究更易甄别研究中的疏忽并及时加以改正。
相比于微观,宏观经济学的进步则有所局限。这一则是因为宏观经济学的研究课题自身难以进行随机实验,另一方面,许多宏观经济学家也逐渐依赖计算机模拟实验。这些模拟实验通过改变原模型中的参数来重新估计以求回答研究问题,由此可以确定因果效应是否存在,以及可能的规模。然而需要注意的是,虽然在理论中增添合理的具体数值无伤大雅,理论却并未因此变为实证。另一个频受冲击的研究领域是产业组织学,这一领域传统的研究办法是估计目标产品需求系统,接着假定市场行为,最终模拟产业在是否存在兼并下的行为。然而事实上,兼并行为本身或许并不能单纯地以假设兼并未发生作为反事实研究,在这种研究范式下,其他市场的价格常被作为工具变量甄别需求,然而市场之间彼此独立的假设本身就很有问题。另一种做法是Hastings(2004)中呈现的,找到实验操作前趋势相同的控制组和实验组,以此判断兼并对市场的影响。好的结构模型可以不仅点明经济学原理,也指出因果效应,但是这些原理必须在更弱的前提假设下依旧成立,否则便乏善可陈。

研究设计是否已经走上歧途

随机实验范式的兴起使得研究者逐渐质疑这种研究的外部有效性,由于种种特定的实验场景,研究者很难确定在这些特定场景之外,研究结论是否依旧有效;此外,实验往往针对细微的变量,而忽视领域中有待探索的大问题。
任何实证研究中某一因果效应的证据都是在地的(local)——它只限于此时此地,基于此研究设计。笼统的研究框架也不能使研究的变量更具代表性。但是任何相信数据的意义的人都不会反对,异质性是相对有限的,理解过去总可以指导未来。对于上述疑虑,或许更有建设性的回应是研究设计中可以增加所寻求的证据,以求获得对问题的全面阐述。在相似的研究的不断累积中,外部有效性更强的理论或许会产生。





星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


数据资源 | 为什么要做数据清洗?

数据可视化 | 常用科研统计绘图工具介绍

软件应用 | 带你了解Stata中的矩阵

因果推断 | 必须警惕的坑:辛普森悖论

统计计量 | 实证研究方法

因果推断 | 收藏:因果推断书籍代码合集

统计计量 | 关于P值,五个最常见的理解误区






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存